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©Abstract: [From equivalent EP0677835A21 Generating word sequence of 
predetermined vocabulary for speech signal Electric signals 
generated from the speech signal are sampled at repeated intervals 
and a series of test signals is generated. A first memory (14) 
accepts different series of reference signals, each representing a 
word of the vocabulary. The sampler (12) and memory (14) are 
coupled between a comparator (16) which compares the test 
signals with difference series of reference signals and generates 
rating values. A generator (18) coupled to the comparator (16) 
generates a word result when the end of a series of reference 
signals is reached, corresponding to the end of a word. Each word 
result includes a reference to the rating value reached, a reference 
to the associated word and a reference to the preceding word. A 
second memory (20) stores the word result. A third memory (22) 
stores words of a speech model. An arrangement (24) coupled to 
the second and third memories updates the rating value in each 
word result by a speech model value in the third memory (22), and 
selects the word result with the best rating value and supplies this to 
the comparator (16). At least one word stream is selected (26, 28) 
in predetermined time intervals, corresponding to a series of 
selected word results with good rating values and the selected 
streams are output. 
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V First Claim : 1 - A method of recognizing a sequence of words of a 
show ail claims predetermined vocabulary from a speech signal, which method 
includes the following steps: 



• • sampling the speech signal at recurrent instants in order to 
produce a series of test signals; 

• • forming a word grid by executing, at the acoustic level and 
by means of the dynamic programming method, a 
comparison between the test signals and various series of 
reference signals in order to form word sequence 
hypotheses, each time at least one word result being 
associated with a word end, which result includes at least a 
reference to an associated predecessor word and a score 
which is incremented by an associated language model 
value; 

• • selecting an optimum word sequence on the basis of a 
word grid thus formed and the scores incremented by 
language model values. 
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Expand description Die Erfindung betrifft ein Verfahren zum Ermitteln einer Folge von 
Wortern eines vorgegebenen Vokabulars aus einem Sprachsignal. 
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© Bel der Erkennung zusammenhangend gespro- 
chener Sprache werden mit Hilfe der dynamischen 
Programmierung viele Hypothesen im Sychraum er- 
zeugt. Wenn in einem Wort verschiedene Hypothe- 
sen zu verschiedenen Vorgangerwortern gestartet 
werden und zum selben Endpunkt laufen. werden an 
diesem Endpunkt die Daten der Hypothesen ge- 
trennt als Wortergebnisse gespeichert. Aus diesen 
Wortergebnissen wird nun erfindungsgemaB ein 
Wortgitter gebildet, in dem weitere MaBnahmen wie 
die Berucksichtigung eines Sprachmodells durchge- 
fuhrt werden. Dabei wird die Anzahl der moglichen 
Pfade in diesem Wortgitter verringert, indem fur je- 
des Wort nur das optimale Vorgangerwort bzw. die 
optimale Vortgangerwortkette bei Berucksichtigung 
des Sprachmodells beibehalten wird. Aus der Verfol- 
gung der ubrig bleibenden Pfade nach ruckwarts 
kann eine einzige Wortfolge als gunstigste Folge 
ermittelt und ausgegeben werden. 
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Die Erfindung betrifft allgemein die automati- 
< sehe^Ej^^ einem Sprachsigpal^ 

und insbesondere betrifft die Erfindung die automa- 
tische Erkennung eines naturlich gesprochenen 
Sprachsignals aus einem oder mehreren Satzerj, r 
wobei die einzelnen Worter im Spfachsigrial-also f * 
nicht durch Pausen getrennt sind, sondern die 
Wortgrenzen. bei ( der autqmatischen i Erkennung 
selbsttatig ermittelt werden jmusseri. 

Fur eine automatische Erkennung wird das 
Sprachsignal in eine zeitliche Folge von Testsigna- 
len umgewandelt, die nach der Methode der dyna- 
mischen Program mierung mit Folgen von Refe- 
renzsignalen verglichen werden, die jewel's ein 
Wort darstellen. Durch diese Referenzsignale wird 
das Vokabular bestimmt. Ein gunstiger Aufbau der 
Referenzsignale, des Vokabulars. ist in Form eines 
Baums, bei dem die Teilfolgen vorvReferenzsigna- 
len, die Wortteile darstellen, die mehreren Wortern 
gemeinsam sind, nur einmal vorkommen, namlich 
in einem Zweig des Vokabularbaums, der mehre- 
ren Wortern gemeinsam ist: Insbesondere in die- 
sem Falle entsteht jedoch das Problem. daB es 
sehr schwierig ist, ein Sprachmodell hoherer Ord- 
nung, d.h. ein n-Gram Sprachmodell mit n>1, zu 
berucksichtigen; 

Bei der Spracherkennung nach der Methode 
der dynamischen Prog ram mierung ergibt/sich 'fur 
jedes Wort des Vokabulars zu ' einer Folge von 
Testsignalen eine Folge von Referenzsignalen mit 
gunstigstem Bewertungswert, die als Hypothese 
bzw. Hypothese innerhalb eines Wortes bezeichnet 
wird. Wenn eine solche Hyothese ein Wortende 
erreicht, werden mit folgenden Testsignale nicht 
nur Hypothesen innerhalb langerer Worter, sondern 
auch mit Wortanfangen, d.h. mit Anfangen von 
Folgen von Referenzsignalen bzw. mit der Wurzel 
des Vokabularbaums, fortgesetzt. Dadurch entsteht 
eine schnell steigende Anzahl von Hypothesen, die 
dadurch begrenzt wird, daB die Bewertungswerte 
der einzelnen Hypothesen immer wieder mit einem 
Schwellenwert verglichen werden, der vorzugswei- 
se urn einen bestimmten Betrag iiber dem optirna- 
len Bewertungswert zu dem betreffenden Zeitpunkt 
liegt. Um die Anzahl von Hypothesen uber Wortfol- 
gen weiter zu verringern. ist es bekannt, von Hypo- 
thesen im Wort, die zu verschiedenen Zeitpunkten, 
d.h. mit verschiedenen, zeitlich benachbarten Test- 
signalen nach den Enden moglicherweise unter- 
schiedlicher Vorgangerworter gestartet wurden und 
die bei demselben Testsignal das Wortende errei- 
chen, nur diejenige Hypothese weiterzufOhren, die 
am Wortende den gUnstigsten Bewertungswert hat. 
Damit wird fur ein solches Wortende auch nur ein 
einziges Vorgangerwort behalten. 

Aus dem Aufsatz von R. Schwartz und S. Aus- 
tin "A Comparison of Several Approximate Algo- 
rithms For Finding Multiple (N-BEST) Sentence Hy- 
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potheses w , erschienen in "Proceedings of the 
ICASS 91, Toronto, Canada", ,l99 f 1,:.Seiten 701 bis 
704 wird* ein Verfahren beschrieben, bei dem alle 
Hypothesen innerhalb eines Wortes, die also zu 

5 verschiedenen Zeitpunkten bzw. mil verschiedenen 

1; - Testsignalen' gesfartet wurden, getrennt bis zum 
Ende dieses Wortes gefuhrt werden, auch wenn 
diese Hypothesen besonders am Wortende uber 
die gleiche Folge von Referenzsignalen verlaufen, 

w sofern die Bewertungswerte dieser Hypothesen 
nicht den erwahnten Schwellenwert uberschreiten. 
An jedem Wortende werden die Daten dieser Hy- 
pothesen abgespeichert, namlich die Identitat des 
beendeten Wortes, der momentane Zeitpunkt als 

75 Endpunkt, der Startpunkt der Hypothese im Wort 
und die Identitat des dazu gehorigen A/organger- 
wortes sowie der in dieser Hypothese erreichte 
Bewertungswert. Auf diese Weise wird eine Anzahl 
von unterschied lichen Wortfolgen gebildet, und am 

20 Ende des Satzes werden mehrere Wortfolgen ab- 
geleitet, die am Ende des Satzes die besten Be- 
wertungswerte haben. 

Dieses bekannte Verfahren geht aus von der 
Erkenntnis, daB der optimale Startpurikfceines Wor- 

25 tes von dem Vorgangerwort, jedoch mit groBer 
Wahrscheinlichkeit nicht von weiteren vorhergehen- 
den Wortern abhangt. Es bietet zwar Moglichkei- 
ten, verschiedene Wortfolgen aus einem gespro- 
chenen Satz abzuleiten, aus denen die zutreffende 

30 Folge ausgewahlt werden kann, jedoch sind diese 
Moglichkeiten dennoch begrenzt, so daB es durch- 
aus vorkommen kann, daB die richtige Wortfolge 
sich nicht unter den ermittelten Wortfolgen befin- 
det. AuBerdem wird dabei kein Sprachmodell be- 

35 rucksichtigt. 

Die Erfindung hat zur Aufgabe, bei im wesentli- 
chen gleichem Aufwand wie bei dem bekannten 
Verfahren wesentlich mehr Moglichkeiten fur die 
Ermittlung und Ausgabe von Wortfolgen zu bieten, 

40 wobei auch Sprachmodelle hoherer Ordnung sehr 
leicht berucksichtigt werden kdnnen und bei dem 
auch als Vokabularbaum aufgebaute Folgen von 
Referenzsignalen gunstig verwendet werden kon- 
nen. 

45 Diese Aufgabe wird durch das im Patentan- 

spruch 1 angegebene Verfahren gelost. 

Bei der erfindungsgemaBen Lbsung handelt es 
sich um eine neue Form eines zweistufigen Erken- 
nungsverfahrens. In der ersten Stufe werden auf 

50 der akustischen Ebene lediglich Folgen von Wort- 
paaren gebildet, wobei die Wortgrenzen innerhalb 
der Wortpaare optimiert sind. In der zweiten Stufe 
werden auf der Wortebene diese gebildeten Wort- 
paare als Wortgitter betrachtet, und alle weiteren 

55 MaBnahmen wie die Anwendung eines Sprachmo- 
dells erfolgen auf dieser Ebene. In dem Wortgitter 
ist eine Vielzahl von Pfaden mdglich, wobei auf 
jedem Pfad eine andere Wortfolge liegt. Aus den 
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Wortergebnissen fur jedes beendete Worty vomde- 
nen jedes zu einem Wortpaar, aus^dem beendeten 
* i'V/P/J. Mnd • einem j Vorgangerwort-- gehort,' wobei also 
; dassejbe; Wort ; mit verse hi edenen ;: .V^^ 
. ter Jl .^uftreten j kann, kann, s ejn\optjmales Wortpaar ; > 5 
v unter Berucksichtigung , eines, Sprachmqdeljs ^gebil- 
det werden^Dazuj wird der Bewertungswert, der am 
. .Endo. von jeweils v einem . Wortpaar erreicht ist, urn 
H einexi ;Sprachrnpdellwert erhoht, .der dutch;: dieses 
. . Wortpaar 1 jaus . endendem . Wort- und Vorgangerwort 10 
und : ^gegebenenfalls diesem vqrangehenden Vor- 
gangerwortern bestimmt ist, und es wird nur das 
Wortpaar mit dem besten Bewertungswert : weiter 
berucksichtigt. Die Bestimmung soleher Wortpaare, 
d.h. die Bestimmung des optimalen Vorganger- 75 
worts zu Jedem endenden .Wort, erfoigt in dem 
erwahnten Wortgitter, bei dem der zeitaufwendige 
akustische Vergleich abgeschlossen ist, und inner- 
halb des Wortgitters konnen die Berechnungen wie 
die Errnittjung der optimalen Vorgangerworter sehr 20 
schnell durchgefuhrt werden. Aus diesen optimalen 
Wortpaaren kann durch die Verkettung, bei der .ein 
Vorgangerwort jeweils das endende Wort fur das 
vorhergehende Wortpaar darstellt, wobei die Ver- 
kettung in bekannter Weise durch die Angabe des 25 
-Startpunktes jedes Wortes gebildet wird, eine einzi- 
ge optimale Wortfolge durch die Verfolgung ruck- 
warts der Startpunktangaben als Ruckwartszeiger 
ermittelt werden. Dies kann am Ende eines Satzes 
seia d.h. der yorgegebene Abschnitt des Sprachsi- 30 
gnals ist ein S^tz. Jedoch kann dies auch zu jegel- 
maBigen Zeitpunkten innerhalb eines Satzes : erfol- 
gen. Es hat sich namlich gezeigt, daB die in der 
beschriebenen Weise gebildeten bzw. verbleiben- 
den optimalen Hypothesen innerhalb des Wortgit- 35 
ters in Richtung des Satzanfangs fast immer bald 
auf einen Punkt kommen, der alien diesen Hypo- 
thesen gemeinsam ist, so daB die vor diesem 
Punkt liegende Wortfolge bereits als endgultig aus- 
gegeben werden kann. 40 

Die Jatsache, daB die Berechnungen im Wort- 
gitter sehr schnell durchgefuhrt werden konnen, 
laBt sich auch dahingehend ausnutzen, daB alterna- 
tive Worter ausgewahlt werden konnen. Wenn 
namlich zu im wesentlichen regelmaBigen Zeit- 45 
punkten die bis dahin gebildeten Hypothesen im 
Wortgitter ruckwarts verfolgt werden und damit 
eine Wortfolge vom Satzanfang beginnend bereits 
ausgegeben wird, kann beim Feststellen eines fal- 
schen Wortes diese geloscht werden, und die Be- 50 
stimmung der optimalen Hypothese im Wortgitter 
erfoigt erneut ohne Berucksichtigung des ausge- 
Ibschten Wortes im Wortgitter. Dadurch wird an- 
stelle des geloschten falschen Wortes zunachst ein 
anderes Wort ausgegeben, und wenn dies eben- 55 
falls falsch ist, kann es ebenfalls geloscht und der 
Vorgang wiederholt werden. Wenn schlieBlich ein 
richtiges Wort ausgegeben wird, wird sich die wei- 



ter ausgegebene Wortfolge allgemein von der ur- 
sprUnglichen Wortfolge nach dem falschen Wort 
unterscheiden, aber gerade dadurch der tatsachlich 
gesprochenen Wortfolge mit groBerer Wahrschein- 
lichkeit entsprechen. 

Die Erfindung hat ferner zur Auf gabe, eine An- 
ordnung zum Ermitteln einer Folge von Wortern 
aus einem Sprachsignal anzugeben, die mit einer 
geringen Fehlerrate bei der Ermittlung arbeitet, in- 
dem Sprachmodelle auch hoherer Ordnung insbe- 
sondere bei als Vokabularbaum aufgebauten Fol- 
gen von Referenzsignalen berucksichtigt werden 
konnen. Diese Aufgabe wird durch die im Patent- 
anspruch 2 angegebene Anordnung gelost. Diese 
erfindungsgemaBe Anordnung hat ebenfalls einen 
zweistufigen Aufbau, wobei in den ersten bis dritten 
Mitteln Wortpaare gebildet werden, in denen die 
Wortgrenzen optimiert sind. Der zweite Speicher 
bildet die Schnittstelle zur zweiten Stufe, in der 
diese Wortpaare weiter verarbeitet werden. Die 
zweite Stufe ermoglicht mit wenig Aufwand eine 
komplexe Verarbeitung der so gebildeten Wortpaa- 
re als Wortgitter. 

Ausfuhrungsbeispiele der Erfindung werden 
nachstehend anhand der Zeichnung erlautert. Es 
zeigen: 

Fig. 1 beispielhaft den Verlauf von zwei Hypo- 
thesen uber zwei verschiedene Vorgangerwor- 
ter, 

Fig^ 2 schematisch ein aus den Wortergebnls- 
sen gebildetes Wortgitter mit dem Inhalt der 
Speicherstellen fur die einzelnen Wortergebnis- 
se, 

Fig. 3 ein Blockschaltbild einer erfindungsgema- 

Ben Anordnung. 
In Fig. 1 ist schematisch der Verlauf von zwei 
Hypothesen dargestellt, die von zwei verschiede- 
nen Vorgangerwdrtern V1 und V2 ausgehen und 
sich, in diese Beispiel deutlichkeitshalber mit ver- 
schiedenen Startpunkten, in einem Wort W fortset- 
zen, und zwar bis zu demselben Endpunkt. Grund- 
satzlich konnen solche Startpunkte aber auch 
gleichzeitig sein. In der waagerechten Achse ist die 
Zeit t und damit die Folge von Testsignalen i, die 
aus dem Sprachsignal abgeleitet wurden, aufgetra- 
gen. In der senkrechten Richtung ist fiir die drei 
Worter V1, V2 und W die Folge von Referenzsi- 
gnalen r angedeutet, wobei R1 das letzte Referenz- 
signal des Wortes VI , R2 das letzte Referenzsignal 
des Wortes V2 und R3 das letzte Referenzsignal 
des Wortes W ist. Die Folge i von Testsignalen 
wird nun mit Folgen von Referenzsignalen vergli- 
chen, und zwar bei dem Beispiel in Fig. 1 begin- 
nend mit dem Referenzsignal iO mit den Referenz- 
signalen des Wortes V2 und beginnend mit dem 
Testsignal i1 mit den Referenzsignalen VI. Durch 
den Vergleich der Testsignale mit den Referenzsi- 
gnalen nach der Methode der dynamischen Pro- 
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grammierung; wie in der EP 0 533' 260 A1 (PHD 
91-138) beschrieben. ergibt sich in dem Wort; V1 
ein; Pfad,- der auch ate; Hypothese H1 innerhalb 
dieses - Wortes- bezeichnet^ werden <kann. Entspre- 
chend ergibt der Vergleich dieser .Testsignale im 
Wort V2 einen v Pfad, der 'eine Hypothese H2 dar- 
: stellt. Es sek bemerkt; daB= tatsachlich allgemein 
noch weitere, fruher begonnene.bzw: spater begin- 
nende. Hypothesen l;in ^ beiden ? 'Wortern vorhanden 
-sind, die hier der Ubersichtlichkeit halber jedoch 
nicht naher betrachtet werden. 

Die Hypothese H2: erreicht das letzte Ref erenz- 
signal R2, d.h: das Ende des Wortes V2, und mit 
diesem Wortende wird die ■ Hypothese H2 in ver- 
schiedenen Wortern fortgesetzt, indem die folgen- 
den Testsignale mit den -ersten : Referenzsignalen 
dieser Worte verglichen werden, wobei in dem hier 
betrachteten Fall nur die Fortsetzungen in dem 
Wort W betrachtet werden; d.h. hier die Fortset- 
zung der Hypothese H2 in dem Wort W. 

In entsprechender Weise; verlauft die - Hypothe- 
se H1 durch den letzten Referenzwert R1 des 
Wortes V1, d.h. durch das Ende des Wortes V1, 
und danach werden ebenfalls die^darauf folgenden 
Testsignale mit neuen Wortanfangen verglichen, 
d.h. in verschiedenen Wortern fortgesetzt, wobei 
hier ebenfalls nur die Fortsetzung der Hypothese 
H1 in dem Wort W betrachtet wird. Bei diesen 
Fortsetzungen wird automatisch die optimale Lage 
i2 bzw i3 der Wortgrenzen zu diesen Wortern V1 
und V2 erhalten. « 

Die beiden Hypothesen H1 und H2 verlaufen in 
dem Wort W zunachst getrennt, bis sie im weiteren 
Verlauf schlieBlich durch dieselben Gitterpunkte 
verlaufen, d.h. bei den letzten Testsignalen ergibt 
der Vergleich mit denselben Referenzsignalen fur 
beide Hypothesen den optimalen Pfad. Bei i4 errei- 
chen beide Hypothesen H1 und H2 schlieBlich den 
letzten Referenzwert R3 des Wortes W, d.h. das 
Ende dieses Wortes. Dabei werden beide Hypothe- 
sen H1 . und H2 unabhangig voneinander aufrech- 
terhalten. 

Nachdem die beideh Hypothesen H1 und H2 
das Ende des Wortes W beim Testsignal i4 er- 
reicht haben, wird fur jede der beiden Hypothesen 
H1 und H2 ein Wortergebnis abgeleitet, wobei das 
Wortergebnis fur die Hypothese H1 den Endpunkt 
in Form der Angabe des Testsignals i4 oder eines 
zugehorigen Zeitpunktes, eine Angabe uber die 
Identitat des beendeten Wortes, namlich W, ferner 
den Startpunkt i3 sowie das zugeh5rige Vorganger- 
wort V1 umfaBt. In entsprechender Weise umfaBt 
das Wortergebnis fOr die Hypothese H2 ebenfalls 
die Angabe des Endpunktes i4, des Wortes W. des 
Startpunktes, in diesem Falle i2, und des zugehori- 
gen Vorgangerwortes V2. AuBerdem werden in bei- 
den Wortergebnissen die entsprechenden Bewer- 
tungswerte, die uber die Hypothesen H1 und H2 



am Ende des Wortes W erreicht wurden, im Wort- 
ergebnis abgespeichert. 

Es sei bemerkt, daB am Ende der : Vorganger- 
worter V1 und V2 fur die Hypothesen H1 und H2 in 

5 entsprechender Weise Wortergebnjsse abgeleitet 
und gespeichert wurden, was in diesem Zusam- 
menhang hier jedoch nicht weiter betrachtet wird. 

In entsprechender Weise werden weitere Wort- 
ergebnisse abgeleitet, wenn zu anderen Zettpunk- 
' io ten die Enden von anderen Wortern oder auch des 
Wortes W erneut erreicht werden, wobei insbeson- 
dere bei einem groBen Vokabular bei den meisten 
Zeitpunkten mehrere Wortenden gleichzeitig er- 
reicht werden. Die abgespeicherten Wortergebnis- 

75 se werden dann als Wortgitter betrachtet, wie in 
Fig. 2 an einem stark vereirifachten Bei spiel ange- 
deutet ist. Dabei stellt Fig. 2a das Wortgitter selbst 
dar, wahrend Rg. 2b die Inhalte der Speicherstel- 
len fur die Worte rgebn isse andeuten soil. 

20 Das Sprachsignal, also ein gesprochener Satz, 

moge zum Zeitpunkt tO beginnen. In diesem Bei- 
spiel ist auf Zeitpunkte anstelle von Testsignalen 
Bezug genommen, was jedoch grundsatzlich 
gleichwertig ist. 

25 Zum Zeitpunkt t1 wird das Ende eines Wortes 

a erreicht, und es wird ein Wortergebnis abgespei- 
chert, wie in Rg. 2b unter t1 angegeben ist, wobei 
das Wortergebnis gemaB vorhergehender Be- 
schreibung eine Angabe des Endpunktes, des be- 

30 endeten Wortes, dessen Zeitpunktes und dessen 
Vorgangerworts umfaBt. Entsprechend wird beim 
Zeitpunkt t2 das Ende eines Wortes b und beim 
Zeitpunkt t3 das Ende eines Wortes c erreicht, und 
die entsprechenden Wortergebnisse, die vorher an- 

35 hand der Fig. 2 angegeben wurden, werden ge- 
speichert. In alien Fallen ist also der Startpunkt der 
Worter der Zeitpunkt tO, es gibt keine Vorganger- 
worter, und die Bewertungswerte am Ende dieser 
Worter sind S1 bzw. S2 bzw. S3. 

40 Das Wort a wird nun mit drei Wortern fortge- 

setzt, und zwar mit den Wortern d, e und g, d.h. 
die zum Ende des Wortes a fuhrende Hypothese 
wird also in drei Hypothesen aufgespalten. In ent- 
sprechender Weise wird das Wort b mit den bei- 

45 den Wortern d und g fortgesetzt, jedoch nicht mit 
anderen Wortern wie das Wort e, weil angenom- 
men wird, daB die von dem Wortende b ausgehen- 
den Hypothesen in diesen Wortern mit ihrem Be- 
wertungswert den Schwellenwert uberschreiten und 

50 beendet werden, bevor sie das Ende solcher Wor- 
ter erreichen. Das Wort c schlieBlich wird mit den 
Wortern d, e und f fortgesetzt. 

Es sei bemerkt, daB hier vereinfacht angenom- 
men ist, daB die Worter a, b und c bezuglich der 

55 Fortsetzungen mit verschiedenen Wortern d. g 
usw. je denselben Endpunkt haben, was tatsachlich 
nicht der Fall sein muB. Andererseits kdnnen End- 
punkte verschiedener Worter, in Fig. 2a z.B. t1 und 
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. ^ amme n fa,,e nt > Entsprechendes gilt auch fGr 
. die anderen, Worter.. n ^ v » 

. Das ( .Wort d, das -zum.Zeitpunkt t4 endet, hat 
. : also,,drei i Vorganjg^ ,und c, und fur jedes 

: ; di ?^ er y°r9ange^ ab _ 
{ ;., ^gespeichert, wie inFjg.,?b unterpt4-angedeutet ist. 
., Die* Worter e und f enden bei dernsejben Zejtpunkt 
^ 5 »;.;H n . d ^die,. entsprechjenden Wortergebnisse ^ wer- 
den ..also . alle , unter:^ t5 :j abgespeiehert,/ wobei das 
... Wort e nur zwei Vorgapgewprter und das Wort f 
nur ein Vorgangerwort hat. Das Wort g, das zum 
Zejtpunkt t6 endet, hat zwei,. Vorgangerworter, 
narnJich a und b, : unc! die entsprechenden Worter- 
gebnisse sind unter t6 : gespeichert.. 

. Zu ™ Zeitpunkt t7 wird das Ende des Sprachsi- 
gnals erreicr/it, und . dabei,, wird ,d^as -Eride von drei 
Wortern h, i und k erreicht. Das Wort h hat die drei 
Vorgangerworter d, f und g, und jedes Wortergeb- 
nis wird unter t7 abgespeicbert, ; k wie in Fig, 2b 
angedeutet ist. Entsprechend hat auch das Wort i 
die gleichen drei Vorgangerworter d, g und f, die 
ebenfalls unter 17 getrennt abgespeichert werden 
muss<3n,,wiejn Fig ? 2b nicht yollstandig angedeutet 
ist. Die drei Wortergebnisse fur das Wort k sind 
der Ubersichtlichkeit halber in Fig. 2b ganz wegge- 
lassen. r> 

Aus dem in Fig. 2a dargestellten Wortgitter ist 
2U ?r!5^ nne n. dafi darin eine jgroBe Anzahl Pfade 
mdgiich sind, , die zu verschiedenen Wprtfolgen 
fuh^en, z.B, die Wortfpjgen a-g-i, b-d-h, c-f-k usw.. 
Diese Wortfolgen k6hnen dadurch bestimmt wer- 
den; da8 yon jedem der beim Zeitpunkt t7 enden- 
den Worter h, i und k liber die gespeicherten 
Anfangspunkte dieser Worter die Vorgangerworter 
und entsprechend deren Vorgangerworter gefun- 
den werden konnen. Von diesen vielen Wortfolgen 
konnte nun diejenjge ausgewahlt werden, die mit 
dem, unter, t7 f gespeicherten Wortergebnis endet, 
das den gunstigsten Bewertungswert hat. 

Es sei b^rnerkt, ,daB die.Wdrter a bis k nicht 
alle unterschiedlich.sein mussen, sondern z.B. kon- 
nen die Worter a und f auch gleich sein. 

Eipe Verbesserung der Zuverlassigkeit der Er- 
kennung kann jedoch erreicht werden, wenn die 
Wortfolgen mit einem Sprachmodell, insbesondere 
mit einem Sprachmodell hoherer Ordnung, bewer- 
tet werden. Bei Verwendung eines Bigram-Sprach- 
modell wird also am Ehde jedes ersten Wortpaares 
wie dem Wortpaar b-g, b-d, a-g usw. der zugehori- 
ge Sprachmodellwert zu dem am Ende des jeweils 
zweiten Wortes erreichten Bewertungswert addiert, 
und fur jedes der zweiten Worter d, e, f und g wird 
dasjenige Vorgangerwort behalten, bei dem die 
Summe aus Bewertungswert und Sprachmodellwert 
am kleinsten ist. Beispielsweise kann das Wortpaar 
b-g einen kleineren Bewertungswert erreicht haben 
als das Wortpaar a-g, wobei letzteres Wortpaar 
jedoch einen wesentlich gunstigeren Sprachmodell- 



wert haben kann, so dafi die Summe aus Sprach- 
modellwert und Bewertungswert schlieBlich fOr das 
Wortpaar a-g am kleinsten ist 

In gleicher Weise kann fur die Wortpaare, bei 
5 denen das Wort h bzw. i bzw. k das letzte Wort ist, 
ein Sprachmodell berucksichtig werden, wobei je- 
doch bei jedem Vorgangerwort von einem neuen 
Bewertungswert ausgegangen wird, der aus der 
Summe des ursprunglichen Bewerturigswertes und 
io des Sprachmodellwertes entstanden ist. Fur jedes 
der letzten Worter h, i und k ergibt sich dann ein 
neuer Bewertungswert aus dem Bewertungswert 
fur jedes vorhergehende Wortpaar und dem ent- 
sprechenden Sprachmodellwert, so daB fur jedes 
75 der Worter h, i und k nur ein einzelner Pfad zum 
Anfang beim Zeitpunkt tO ubrig bleibt. Von diesen 
Pfaden bzw. Wortfolgen wird diejenige ausgewahlt, 
die bei dem letzten Wort h bzw. i bw. k den 
gunstigsten Bewertungswert erreicht hat. 
20 In entsprechender Weise kann auch ein Tri- 

gram-Sprachmodell verwendet werden, wobei nur 
wenig mehr Rechenaufwand erforderlich ist, da der 
weitaus groBte Rechenaufwand fur die Ermittlung 
der Hypothesen in den Wortern und damit fur die 
25 Erzeugung des Wortgitters entsprechend der Fig. 
2a erforderlich ist. 

In Fig. 3 ist ein schematisches Blockschaltbild 
einer Anordnung zum Ermitteln einer Folge von 
Wortern aus einem Sprachsignal dargestellt. Das 
30 Sprachsignal wird uber ein Mikrofon 10 aufgenom- 
men und in ein elektrisches Signal umgesetzt. Die- 
ses Mikrofon kann eine Einheit mit der ubrigen 
Anordnung bilden. Es kann jedoch auch weit ent- 
fernt aufgestellt sein, wobei die Verbindung zwi- 
35 schen dem Mikrofon und der ubrigen Anordnung 
durch eine Telefonleitung gebildet werden kann. 

Das vom Mikrofon 10 gelieferte elektrische Si- 
gnal wird, wenn es ein analoges Signal ist, in einer 
Einheit 12 in bekannter Weise durch periodische 
40 Abtastung in ein digitales Signal umgesetzt, aus 
dem zu wiederholten Zeitpunkten Testsignale ge- 
bildet werden. Diese Testsignale geben beispiels- 
weise die Energie des Sprachsignals in bestimm- 
ten Frequenzbereichen fur vorbestimmte Zeitab- 
45 schnitte von beispielsweise 10 ms Dauer des 
Sprachsignals an. 

Diese Testsignale werden einer Einheit 16 zu- 
gefuhrt und darin mit Referenzsignalen verglichen, 
die in einem Speicher 14 gespeichert sind. Die 
50 Referenzsignale konnen vorher aus vorgegebenen 
Testsatzen ermittelt worden und fest gespeichert 
sein, es ist jedoch auch moglich, diese Referenzsi- 
gnale aus den Ergebnissen bei der Ermittlung der 
Folge von Wortern zu verandern und zu erganzen. 
55 Derartige Mafinahmen sind grundsatzlich bekannt 
und stellen keinen Teil der Erfindung dar und wer- 
den daher nicht weiter erlautert. 
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,s, Bei. dem. Vergleich. im Block 16- werden u.a. 

0 Bewertungswerte^ erzeugt,*die ein' MaBdafUr dar- 
stellen, wie eine Folge von Testsignalen* mit ver- 
sehiedenen Folgen von im Speicher ,v 14 gespeicher- 
tenv Referenzsignalen ubereinstimmtl- Dies- ge- 
schieht auf bekanhte Weise mit Methoden der dy- 
namischen Prog ram mierung. Wahrend der Bildung 

r . der; Bewertungswerte ;_erfolgt auBerdem ein- Ver- 
gleich, mit ? wenigstens einem Schwellwert, bei-des- 
sen: Uberschreiten der weitereoVergleich -fur die 
betreffende Folge von Referenzsignalen^ abgebro- 
chen wird. AuBerdem erfolgt- bei v dem Vergleich 
eine /Art Buchfuhruhg uber die' Vorgeschichte, d.h. 

1 insbesdndere den Anfangspunkt des Vergleiehs fOr 
eine -Folge von Referenzsignalen ' und wenigstens 
eines vorhergehenden Wortes. ^ ^ 

. . Die Folgen der Referenzsignale im Speicher 14 
stellen Worter eines vorgegebenen Vokabulars dar, 
und wenn das Ende einer solcheh Folge und damit 
, ein Wortende beim Vergleich erreieht wird, wird ein 
Wortergebnis abgeleitet. Dies erfolgt in der Einheit 
1 8. Jedes Wortergebnis umfaBt dabei wenigstens 
diejenigen Angaben; die anhand der Fig. 2b erlau- 
tert wurden. Mit der Ermittlung der Wortergebnisse 
wird die erste Ebene der Erkennung. die auch als 
akustische Ebene bezeichnet wird ^verlassen, und 
die Wortergebnisse werden in einem Speicher 20 
gespeichert. : - 

In der Einheit 24 werden die Wortergebnisse 
mit den Werten eines Sprachmodells verarbeitet, 
die in einem Speicher 22 gespeichert sind. Wie 
fruher beschrieben, werden die Bewertungswerte 
der einzelnen Wortergebnisse urn Werte entspre- 
chend dem Sprachmodell erhoht. Die erhohten Be- 
wertungswerte werden einerseits der Einheit 16 
wieder zugefuhrt, damit die Fortsetzung des Ver- 
gleiehs der folgenden Testsignale mit Anfangen 
von Folgen von Referenzsignalen unter Berucksich- 
tigung des Sprachmodells erfolgen kann. 

Die erganzten Wortergebnisse werden einer 
Einheit 26 zugefuhrt, in der anhand der Bewer- 
tungswerte in den Wortergebnissen eihe optimale 
Wortfolge ausgewahlt werden karin. Dies kann am 
Ende eines Satzes geschehen, jedoch ist es auch 
moglich, in regelmaBigen Zeitabschnitten eine Teil- 
wortfolge auszugeben, die gegenuber dem mo- 
mentanen Stand urn beispielsweise eine Anzahl 
Worter nacheilt, da angenommen werden kann, 
daB bis zu einem gewissen Punkt vor dem momen- 
tanen Augenblick die optimale Wortfolge feststeht. 
Die endgultige Wortfolge wurde dann also ab- 
schnittsweise an einer Ausgabeanordnung 28. bei- 
spielsweise einem Drucker Oder einem Bildschirm, 
ausgegeben werden. 

Dabei ist es auch moglich, dafi bei Ausgabe 
auf einem Bildschirm ein Fehler von einer Bedie- 
nungsperson erkannt wird, d.h. ein nicht richtig 
erkanntes Wort, und die Bedienungsperson kann 



dann dieses "Wort loschen und die Anzahl der 
optimalen Wortfolge erneut starten. Dies Wird hau- 
fig auf einen andereh Pfad durch das Wortgitter 
fuhren, auf dem anstelle des geloschten Worts ein 

5 ahnliches Wort erscheint. Falls dies immer noch 
falsch sein soUte, kann der Vorgang wiederholt 
werden. Dies ist durch die Einheit 30 angedeutet. 
Auf diese Weise ist eine besonders gunstige inter- 
aktive Verarbeifung des Sprachsignals und prak- 

io tisch fehlerfreie Ermittlung der richtigen Wortfolge 
daraus moglich. 

Es sei bemerkt, dafi einige Oder alle Einheiten 
auch durch einen entsprechend program mierten 
Computer realisiert werden konnen. Dabei wird es 

15 allgemeih zweckmaBig sein, wenigstens einige der 
Speicher in den Hauptspeicher des Computers auf- 
zunehmen. 

Patentanspruche 

20 

1. Verfahren zum Ermitteln einer Folge von Wor- 
tern eines vorgegebenen Vokabulars aus ei- 
nem Sprachsignal mit folgenden Schritten: 
zu wiederholten Zeitpunkten wird das Sprach- 

25 signal abgetastet, um eine Folge von Testsi- 

gnalen zu erzeugen; es wird ein signalweiser 
Vergleich zwischen den Testsighalen und ver- 
schiedenen Folgen von Referenzsignalen mit 
Erzeugung von Bewertungswerten durchge- 

30 fOhrt, wobei jede Folge von Referenzsignalen 

ein Wort des Vokabulars darstellt; 
bei Erreichen des Endes jeder Folge von Refe- 
renzsignalen entsprechend dem Ende eines 
Wortes bei einem ersten Testsignal wird fur 

35 jeden unterschiedlichen Anfang dieses Wortes 

ein gesondertes Wortergebnis abgeleitet, das 
einen Hinweis auf das beendete Wort, einen 
Hinweis auf das erste Testsignal als Wortende, 
einen Hinweis auf den Wortanfang, einen Hin- 

40 weis auf das diesem Wortanfang vorausgegan- 

gene Vorgangerwort und einen Hinweis auf 
den Bewertungswert fur das beendete Wort 
vom Wortanfang bis zum Wortende umfaBt, 
und dieses Wortergebnis wird gespeichert; 

45 nach jedem Wortende wird der Vergleich mit 

dem Anfang von Folgen von Referenzsignalen 
fur jedes gleichzeitig endende Wort getrennt 
neu begonnen; 

fur jedes erste Testsignal wird aus den gespei- 
50 cherten Wortergebnissen fur jedes Wort ein 

optimales Vorgangerwort ermittelt, bei dem 
das Wortergebnis unter BerOcksichtigung ei- 
nes Sprachmodellwerts, der abhangig vom 
verwendeten Sprachmodell von dem Wort, 
55 dem optimalen Vorgangerwort und von diesem 

vorangehenden optimalen Vorgangerwortern 
abhangt, den kleinsten Bewertungswert gegen- 
uber alien anderen Vorgangerwortern fur das- 

6 
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selbe Wort erreicht; aus dem gOnstigsten Be- 
wertungswert und dem zugehorigen Wort am 
Ende ernes vorgegebenen Abschnitts des 
Sprachsignals wird uber die gespeicherten 
Hinweise auf die Startpunkte vorhergehender s 
Worter eine Folge von Wortern ermittelt und 
abgegeben. 

2. . Anordnung zum Ermitteln einer Folge von 

/ Wortern eines vorgegebenen Vokabulars aus w 
einem Sprachsignal, umfassend 

- erste Mittel (12) zum Abtasten eines aus 
dem Sprachsignal erzeugteri elektrischen 
Signals zu wiederholten Zeitpunkten und . 
zupn Erzeugen einer Folge von Testsi- is 
gnalen, 

- einen ersten Speicher (14) zum Aufneh- 
men von verschiedenen Folgen von Re- 
ferenzsignalen, wobei jede Folge von Re- 
ferenzsignalen ein Wort des Vokabulars 20 
darstellt, 

- mit den ersten Mitteln und dem ersten 
Speicher gekoppelten zweiten Mitteln 
(16) zum signalweisen Vergleich zwi- 
schen den Testsignalen und verschiede- 25 
nen Folgen von Referenzsignalen und 

zum Erzeugen von Bewertungswerten, 

- mit den zweiten Mitteln gekoppelte dritte 
Mittel (18) zum Erzeugen eines Worter- 
gebnisses bei jedem Erreichen des En- 30 
des einer Folge von Referenzsignalen 
entsprechend dem Ende eines Wortes, 
wobei jedes Wortergebnis einen Hinweis 

auf den am Ende der Folge von Refe- 
renzwerten erreichten Bewertungswert, 35 
einen Hinweis auf das dieser beendeten 
Folge zugeordnete Wort und einen Hin- 
weis auf das Vorgangerwort enthalt, 

- einen zweiten Speicher (20) zum Spei- 
chern der Wortergebnisse, 40 

- einen dritten Speicher (22) zum Spei- 
chern von Werten eines Sprachmodells, 

- mit dem zweiten Speicher (20) und dem 
dritten Speicher (22) gekoppelte vierte 
Mittel (24) zum Erganzen des Bewer- 45 
tungswertes in jedem Wortergebnis um 
einen dem dritten Speicher entnomme- 

nen Sprachmodellwert und zum Auswah- 
len des Wortergebnisses mit dem gun- 
stigsten Bewertungswert unter alien 50 
Wortergebnissen mit demselben enden- 
den Wort sowie zum Zufuhren des gOn- 
stigsten Bewertungswertes zu den zwei- 
ten Mitteln, 

- funfte Mittel (26, 28) zum Auswahlen in 55 
bestimmten Zeitabschnitten wenigstens 
einer Wortfolge entsprechend einer Fol- 
ge von ausgewahlten Wortergebnissen 



mit dem gOnstigsten Bewertungswert am 
Ende des Zeitabschnitts und zum Ausge- 
ben der ausgewahlten Wortfolge. 
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(54) Verfahren zum Ermitteln einer Folge von Wortern 

(57) Bei der Erkennung zusammenhangend gespro- 
chener Sprache werden mrt Hilfe der dynamischen Pro- 
grammierung viele Hypothesen im Suchraum erzeugt. 
Wenn in einem Wort verschiedene Hypothesen zu ver- 
schiedenen Vorgangerwortern gestartet werden und 
zum selben Endpunkt laulen, werden an diesem End- 
punktdie Daten der Hypothesen getrennt als Wortergeb- 
nisse gespeichert. Aus diesen Wortergebnissen wird 
nun erfindungsgemaB ein Wortgitter gebildet, in dem 
weitere MaBnahmen wie die BerOcksichtigung eines 
Sprachmodells durchgefuhrt werden. Dabei wird die 
Anzahl der mdglichen Pfade in diesem Wortgitter verrin- 
gert, indem fur jedes Wort nur das optimale Vorganger- 
wort bzw. die optimale Vortgangerwortkette bei 
BerOcksichtigung des Sprachmodells beibeharten wird. 
Aus der Verfolgung der ubrig bleibenden Ptade nach 
ruckwarts kann eine einzige Wortfolge als gunstigste 
Folge ermittelt und ausgegeben werden. 
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